Например, Бобцов

Автоматическое построение дерева диалога по неразмеченным текстовым корпусам на русском языке

Аннотация:

Предмет исследования. В работе предложен метод автоматического определения структуры дерева и ключевых тематик узлов в процессе построения дерева диалога по неразмеченным текстовым корпусам. Построение дерева диалога является одной из трудоемких задач при создании автоматической диалоговой системы и в большинстве случаев производится на основе ручной разметки, что занимает достаточно много времени и ресурсов. Метод. Разработанный метод иерархической кластеризации диалогов учитывает семантическую близость сообщений, позволяет выделять различное количество узлов на каждом уровне иерархии и ограничивать дерево диалогов в ширину и глубину. Алгоритм построения аннотаций узлов дерева диалога учитывает иерархию тем за счет построения тематических цепочек. В основе метода лежит комплексное использование методов обработки естественного языка (токенизация, лемматизация, частеречная разметка, построение векторных представлений слов и др.), анализа главных компонент для снижения размерности и методов кластерного анализа. Основные результаты. Эксперименты по построению структуры дерева диалога и аннотированию узлов показали большие возможности предложенного метода для построения автоматического дерева диалога. Точность распознавания на примере эталонного дерева диалога, содержащего 13 узлов на первом, 381 узел на втором и 299 узлов на третьем уровнях составила 0,8, 0,7 и 0,5 соответственно. Практическая значимость. Автоматическое построение деревьев диалога может быть востребовано при разработке диалоговых систем и повышения качества решения задачи генерации ответов на вопросы пользователей.

Ключевые слова:

Статьи в номере